iPhone XR, Xs, Xs Max ในสายตาของคนทำงานเกี่ยวกับ AI

กระทู้ข่าว

สมาร์ทโฟน ซอฟต์แวร์ ฮาร์ดแวร์ เทคโนโลยี iPhone

สวัสดีครับ ผมนั่งดูวิดีโอประกาศไอโฟนใหม่แล้วคุยกับแฟน พบว่าแฟนไม่ซาบซึ้งเลยว่ามีอะไรใหม่ พอเล่าๆจากมุมมองผมที่ทำงานสาย AI (Artificial Intelligence) แล้วแฟนดูตื่นเต้นเลยอยากมาแชร์ให้ฟังครับ

1. HDR
อธิบายแบบง่ายๆ เวลาถ่ายรูปที่มีทั้งส่วนที่มืดและสว่าง (แบบภาพด้านล่าง) ถ้าปรับให้มืดก็จะไม่เห็นพื้นห้องแต่เห็นเมฆ ถ้าปรับให้สว่างก็จะไม่เห็นเมฆแต่เห็นพื้นห้องครับ

เหล่านักวิจัยเลยคิดได้ว่าทำไมไม่ถ่ายทั้งสองแบบแล้วเอามารวมกัน จะได้รูปที่เห็นทั้งเมฆและพื้นห้อง ปัญหาคือการถ่ายภาพสว่างในมือถือมันต้องรอแสงเข้าทำให้ช้า ถ้าคนในรูปดันขยับก่อนจะถ่ายทั้งมืดและสว่างเสร็จ ตอนผสมกันก็จะเบลอ ประกอบกับการผสมภาพก็ใช้เวลานานเพราะต้องคำนวณสีทีละจุด กล้องสมัยใหม่ละเอียดเป็นสิบล้านจุด คำนวณเพื่อรวมภาพหลายร้อยล้านครั้งกลายเป็นว่าถ่ายรูปที รอ 10 วินาทีถึงจะได้รูป คนก็ใช้ไม่ไหวครับ

มือถือตระกูล Google Pixel ที่ถือว่าเป็นหนึ่งในผู้นำ HDR เลยคิดค้น HDR plus ขึ้นมา ไอเดียคือถ่ายหลายๆรูปก็ได้ แต่เน้นรูปมืดๆเพราะไม่ต้องรอรับแสงนาน รูปมืดปรับให้สว่างหลายครั้งยังพอมองเห็น แต่ถ้าสว่างเกินไปแล้วกลายเป็นสีขาวก็ไม่มีทางเอาส่วนนั้นกลับมาได้ครับ ผมเคยเสนอเทคนิคเลือกความสว่างด้วย AI ถ้าเป็นรูปคนก็เอาหน้าสว่างๆหน่อย ไม่เห็นท้องฟ้านิดหน่อยก็ไม่เป็นไร ส่วนที่สำคัญต้องถ่ายสวยตลอด แต่ก็ทำได้แค่เลือกบางจุดให้สวย ไม่ใช่สวยทั้งภาพ

ทีนี้ Apple ดันสามารถออกแบบกล้องที่ถ่ายมืดสลับสว่างได้ แถมรูปแรกเอาแบบอภิมหาสว่าง กะว่ารูปจะออกมาสวยสว่างชัดเลยโดยไม่ต้องแต่ง

ทั้งที่มีอุปสรรคด้านความเร็วของกล้องและความเร็วของเครื่อง ไม่มีบริษัทไหนกล้าทำมาก่อน แม้แต่กล้องจริงจังแบบ DLSR, Mirrorless ก็ยังไม่มีเทคโนโลยีนี้ ผมรอดูเลยครับว่าภาพจะออกมาสวยแค่ไหน

2. Segmentation
Segmentation คือการตัดส่วนที่ไม่ต้องการออกจากภาพ อารมณ์ประมาณตัดต่อ photoshop ที่คนไทยติดปากกันครับ

ประเด็นคือถ้ารูปว่าส่วนไหนคือคนแล้วเราเบลอฉากหลังออก มันจะดูคล้ายๆรูป Bokeh (หน้าชัดหลังเบลอ) แต่ยังไม่มีใครทำได้เหมือนเป๊ะเพราะ 2 เหตุผลครับ
1. แสงที่เบลอมันซับซ้อนมาก จะเห็นว่าแสงรูปด้านล่างบางทีก็กลม บางทีก็เป็นเส้น บางทีก็เป็นแผง เพราะแสงมันมีกฎการกระเจิงบวกกับเราไม่รู้ความลึกของภาพ

2. ตัดรูปคนได้เนียนแค่ไหน ผมว่า Apple ยังมีหลุดบ้าง (ตรงแขนในรูปด้านล่างมีเบลอและแขนหาย) แต่ก็ทำข้อ 1 ได้ดีในระดับนึงแล้วครับ

3. Best of Burst
ผมเชื่อว่าหลายคนต้องมีไอเดียว่าถ่ายรูปรัวๆไปมันต้องสวยซักรูปแหละ ผมลองทำดูแล้วปรากฎว่าจริงครับ เทคนิคที่ทำคือผมถ่ายรูปถี่ๆก่อนและหลังกดชัทเตอร์ แล้วใช้ AI เลือกรูปที่สวยที่สุด AI สมัยใหม่รู้ขนาดว่าเราหลับตาหรือเปิดตาอยู่ ถ้าเผลอกะพริบตาตอนถ่ายก็จะเลือกรูปเปิดตาหน้าชัด ผมเคยเทียบกับ Google และ iPhone เมื่อปีที่แล้วพบว่าเทคนิคเลือกรูปยังขึ้นอยู่กับปัจจัยง่ายๆเช่นความชัด ความสว่างครับ ทีนี้ Apple ประกาศรุ่นใหม่ ผมมั่นใจว่าต้องใช้ AI แน่นอน ทีนี้จะเลือกรูปได้ฉลาดขนาดไหน อาจจะเก่งขนาดเลือกสีหน้าที่ดูตลกที่สุด หรือเลือกรูปที่องค์ประกอบสวยงามที่สุด หรือตัวอักษรอ่านออกมากที่สุด หรือมากกว่านี้ต้องรอทดลองใช้จริงครับ

4. CoreML
อันนี้พระเอกของงานเลย ปัจจุบันถ้าพูดถึง AI มักจะพูดถึง Deep Learning ไอเดียคือสมมติอยากรู้ว่ารูปนี้รูปเก้าอี้หรือลูกบอล ก็ใส่รูปเก้าอี้กับลูกบอลเข้าไปเยอะๆ (เป็นหมื่นๆรูป) แล้วมีตัวแปรมาบวกลบคูณหารเป็นล้านๆครั้ง ก็จะตอบรูปที่ไม่เคยเห็นได้ว่าเป็นเก้าอี้หรือลูกบอล ที่มันทำได้เพราะตัวแปรมหาศาลมันพอจะจำลักษณะคร่าวๆบางอย่างเช่นขอบของเก้าอี้หน้าตาเหลี่ยมๆแต่บอลขอบกลมๆ ประเด็นที่ผมเล่าไปในข้อ 1-3 ก็ใช้ Deep Learning เช่นกันครับ และปัจจุบันมันทำอะไรได้เยอะมากขนาดว่าคาดเดาอนาคตได้, เอาหน้าโอบาม่าไปใส่หนังผู้ก่อการร้ายอาหรับ, หาโจรในกล้องวงจรปิดได้, ทำรถไร้คนขับ ฯลฯ

ทีนี้คำนวณมากๆมันช้า อย่าง segmentation ในข้อ 2 ระบบที่ดีที่สุดในโลกใช้เวลาอย่างน้อย 10 วินาที ถ้ามือถือเก่าๆรอเป็นนาทีก็มี ซึ่งกดทีนั่งยิ้ม 1 นาทีไม่มีใครรอไหวแน่นอน บริษัทใหญ่ๆก็เลยออกบริการคำนวณในเซิฟเวอร์ของบริษัทเช่น Google, Microsoft บริษัทเหล่านี้มักจะคิดเงินและอาจจะเก็บภาพที่เราส่งไป เอาใปพัฒนา AI ให้ดีขึ้น ถ้าเกิดการคำนวณมันดันเร็วขึ้นมามันก็จะจบในมือถือ ไม่ต้องไปจ่ายตัง วุ่นวายส่งไปบริษัทโน่นนี่ บริษัทเหล่านี้ขาดข้อมูลไปก็จุกอยู่ครับ

ปัจจุบัน Deep Learning ในมือถือยังพยายามพัฒนากันอยู่เพราะช้าและกินแบต อย่างผลงานในข้อ 3 ของผมออกแบบมาเพื่อมือถือโดยตรง ใช้เวลารูปละ 17ms (เสี้ยววินาที หรือ 1/1000 วินาที) ยังกินแบตและมีคนบ่นว่ารู้สึกว่าทำหลายๆรูปติดต่อกันก็กระตุกบ้าง งานชิ้นเดียวกันใน Android ยิ่งช้าหนัก อยู่ที่ประมาณ 35ms ซึ่งแปลว่า iPhone เป็นผู้นำด้านความเร็วอยู่แล้ว ปรากฎว่า CoreML เป็นระบบที่ใช้คำนวณ Deep Learning รุ่นใหม่ที่เร็วยิ่งขึ้นกว่าเดิมถึง 9 เท่า และประหยัดพลังงาน 10 เท่า แปลว่าระบบผมจะเหลือ 2ms เร็วเหมือนแจกฟรีและไม่ทำให้แบตลด ผมว่า AI จะเริ่มโผล่มาใน iPhone อย่างรวดเร็ว รวมไปถึงเกม AR, chat bot อาจจะถึงขั้นเอาไปใช้ในอุตสาหกรรมได้เลยครับ

เขียนมายาวมากสรุปว่า Apple ปีนี้ทำได้ดีและมีประเด็นอื่นมากกว่านี้อีกที่ผมเล่าไม่หมด แต่อย่าลืมว่าราคาก็หนักแน่นเหมือนทุกปี ไอโฟนสิบได้ชื่อนี้มาเพราะซื้อสิบเครื่องซื้อรถได้เลยครับ

แก้ไขข้อความเมื่อ